OpenAI 新一代o1推理模型发布之际,“Scaling What”问题再思考|LLM范式迁移、强化学习及其它
点击
“
𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远:遵循现象-工程-数学这样的研究路径,从人工智能到泛智能,方能抵达。
o1模型可以认为就是一个GPT-4o的CoT agent|在此之前的GPT版本,一些复杂问题交互,需要复杂的思维链( CoT) 提示工程,定位于Level 2智能的o1将大大减少CoT提示工程量,可以理解为CoT Prompt被内化成了模型的自适应行为了。
楔子
OpenAI L2智能产品o1系列发布|正说着近日The Information的爆料,OpenAI的下一代GPT模型-o1(又名strawberry/Q*),以o1-preview与o1-mini两种产品形态,在2024年9月12日全面开放给所有ChatGPT订阅用户。
抛开一时间各种自媒体推文喧嚣,第一时间打开同步释放的模型卡片报告:
△
-OpenAI o1模型卡片:https://cdn.openai.com/o1-system-card.pdf
o1系列模型经过了大规模的强化学习(RL)训练,使得其获得了使用思维链(Chain of Thought)进行推理的能力。
简介里就模型的实现就这么一句话,其它都是有关安全,是不是有点太简单?这可能是OpenAI被诟病为CloseAI的一贯风格,当然在正文中会稍微有展开,本文后面也会涉及。
人类智能Human Intelligence发展中的第二个突破:强化学习RL
先看看什么是强化学习|且按下强化学习在机器学习工程中的严肃定义不表,强化学习是智能体非常基础的一种适应环境的学习行为模式,按还在休学术假的OpenAI联创Greg发的一条推文:就是trial and error,也就是不停试错的过程,最终看起来是把system2的思考模式内化到system1的交互中。
强化学习在机器学习工程领域应该归功于Richard Sutton,他的那本RL教科书是强化学习这种范式的经典之作,目前大家看到的1998年首版20年后的第二版。
趁这个机会又去翻了翻Sutton老爷子的推文,看到前不久Sutton对于他的研究机构对于申请AI基础研究职位的要求,学习RL教科书排在第一位:
当然当年Sutton也是集前人之功以及机缘巧合,在Max Bennett的《智能简史》中,也有其算法来历详细描述。
RL强化学习能力作为动物进化到脊椎结构后第二个智能突破,动物为了生存的掠食空间智能行为与其具身结构进化强相关,第一个智能突破是在进化出了对称身体结构的基础上,在空间智能探索的方向选择(Steering)上发展出了价值判断能力,在此之前上放射性身体结构,没有空间方向选择能力,只能守株待兔,其掠食行为完全是刺激与反应。
具备一定空间行为智能的动物,在探索空间掠食过程中,从本质上讲就是不停的试错,遵循价值判断根据环境反馈不停的学习适应环境而生存。具备移动能力的动物对于时间的感知也在掠食时机的选择上被强化了,这种价值判断的时间特性,后来被机器学习科学家发展为RL学习的算法基础:时分学习算法 Temporal Difference Learning。RL算法发展过程,一直可以追溯到1950年代的Marvin Minsky时期(对,就是那个Minsky,在笔者有关AI历史冰河期的公众号文章也有涉及:新观察 |当今LLM智能发展之“事不过三”定律|黑格尔的正反合·老子的道德经·Marvin Minsky的悼文)。然后在1984年,Richard Sutton在他的博士论文中,提出了一种新的解决时分赋值问题的策略,也是和书的共同作者Barto一起,全名叫:强化学习中的时间信用分配 Temporal Credit Assighment in Reinforcement Learning。
△
-在智能简史一书中,对强化学习RL的来历有完整的叙述
Bennett在书中以围棋为例做了阐释,按笔者通俗的理解就是,Sutton作为一个心理学研究出身在博士阶段解决了一个计算科学的算法难题,他的想法简单而激进,就是把RL学习的奖励从真实奖励变为预测奖励,也就是说不要根据行动结果奖励一个RL模型,而是根据RL模型自己预测的赢率来进行奖励。这就解决了RL模型行为奖励中的鸡与蛋的问题。当然这个理论算法实际上在当时并没有真正在计算上实现,但为RL模型算法后续的很多迭代指明了方向,具体这一段叙述可以参考Bennett的书中的相关章节,对于理解机器学习中的算法迭代很有帮助。按笔者此刻的直觉 ,这一段AI算法的发展似乎与AI行为的建模、预测与计划的神经网络工程实现也有关联。
AI发展的不同阶段需要范式不同
GPT从会话到推理需要不同范式|之所以说o1是新范式的产品,在o1的模型系统卡片中,没有提L1产品的工程范式预训练PreTraining。GPT-4系列是OpenAI定义的AI第一阶段产品,主要关注语言的基础应用-以会话形式的交流。这个阶段的LLM产品的工程范式突破是预训练,大量的人类文本中的上下文common sense knowledge学习(压缩),注意力机制实现,会话者的意图识别,
但是o1系列则是level 2 级别的AI服务产品,在交互中的是思考reasoning的结果。语言在会话和思考中的功用有很大差别。语言在人类智能的发展中具备独特的地位,其功用是综合多样的,笔者在前一篇文章中也有涉及。
语言作为工具主要是交流而不是思考|但是没有语言,思考却无法交流,也使得思考的价值受限,同时思考无法脱离大脑运行环境而迭代。现在的LLM主要用于会话场景,会话是思考迭代中的交流,不是思考过程本身。思考过程靠预训练阶段中的next token prediction是不够的,而且互联网文本中关于思考过程的文字并不多。通过最近的研究思考,我的判断是大语言模型的压缩是pre training阶段的机器学习,至于智能中更重要的推理/理性能力,需要更多的强化学习RL或者test time compute,和人类会话类似,推理能力在会话中展现有限。
关于语言的功用, Nature的一篇神经科学研究文章表明,作为工具来说,与其说是思考,不如说更主要是用于交流。当然这不是否定语言在思考中的功用,语言使得思考的过程可以形式化表达迭代,思考结果可以有效传递以及获得预期的奖励。
△
- inferencer time compute对于对于模型推理性能的影响对比显示了scaling趋势
如果还是next token prediction范式,理论上学习大量人类思考过程文本的合成数据也是可行的。总之scaling inference time compute是新范式的必要条件。
另外我想起Ilya早期一直说的GPT通过压缩大量文本学习了一个以文本表征的世界模型环境,L1阶段的会话产品证明这个数字世界模型是有效的;对比我们每个人面对的世界环境,作为生物智能体,是为了下一秒生存的确定性在这个不确定的世界环境进行理性思考;
LLM是为了什么? 当前的LLM范式来说都是通过人为设置奖励模型让这些数字神经网络强化学习塑造模型行为,区别就是人类作为智能体,其行为智能背后的奖励模型是自我塑造的。从L1到L2的过程看起来AGI路径还很长,一切取决于这种数字神经网络到底能不能产生自我觉知,构建自己的存在意义与目的。
模型智能行为塑造决定数字神经网络工程的scaling what
在Transoformer出现之后,架构不再是瓶颈,现在主要的焦点在数据集和相应的文本任务目标。对于基于文本的推理能力(reasoning或thinking),“当前的LLM预训练的互联网数据,并不是你想要的Transformer理想语料,但已经可以促使LLM走到今天这样的地步”;对于推理来说,”Transformer想要学习的是人类大脑的内心思想独白......如果我们有10亿个这样的思考轨迹[当你解决问题时,你的大脑],那么AGI就在这里”,“互联网的文本就像0.001%的认知和99.99%的信息,其中大部分对推理思考没有用” ;合成数据主要与“将数据集重构为这种内部独白格式”有关。
实现LLM推理能力的两种可能途径| Karpathy说的人脑的内心思想独白的合成数据可能是AGI的来源,和我前面说的两种途径相关:人为设置奖励模型强化学习RL;或通过原始的next token prediction来预训练推理过程的合成数据。后者是我的个人臆测speculation,但如果思维推理过程有了形式化语言的描述,理论上在大模型的数字神经网络高维潜空间里,也许能解读出人类理性思考的秘密。
此外,@DrJimFan的好友,OpenAI的Jason也发推祝贺o1的发布,在不透露公司机密的前提下说,o1-mini只是一个小模型,但在AIME的推理测试集上,可以取得非常难以置信的成绩。
△https://arxiv.org/pdf/2406.16838 [Submitted on 24 JUN 2024]
原文链接:
-相关𝕏文及视频
附录:𝕀²·ℙarad𝕚g𝕞智能平方范式研究
遵循现象-工程-数学这样的研究路径;从人工智能到泛智能H𝕀:Humanity Intelligence [Sys1&2@BNN]
A𝕀:Artifical Intelligence [LLM@ANN]
𝕀²:H𝕀 𝕩 A𝕀 [bio- | silico-]
ℙarad𝕚g𝕞:认知范式或BNN认知大模型
A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白
往期推荐
AI平方范式智库·认知构建路径:A𝕀²ℙarad𝕚g𝕞 V4商业新范式解读
AI平方范式智库·数学系列E03S01 | 神经网络背后的数学
AI平方范式智库·访谈系列E03S02|从语言游戏到LLM智能体
AI平方范式智库·AI大佬互怼系列五篇 | 幻觉、优化、涌现、印记及高维诅咒
扫码加群,
链接智库!
AI平方范式智库